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摘 要 : 高 精度 的 人 品格 网 数据 集 在 风险 评价 .灾害 应 急 、 生 态 环境 保护 、 区 域 发 展 与 规划 等 领域 
具有 重要 价值 。 输 入 数据 精度 和 模型 选择 的 不 同 导致 其 具有 不 同 的 特点 与 优势 ,因此 评价 代表 性 
数据 集 的 精度 ,分析 数据 集 的 适用 条 件 意 义 重大 。 研 究 评估 了 世界 人 口 (WorldPop ) 数 据 集 和 世界 
第 四 版 网 格 化 人 口 (GPWv4) 数 据 集 在 中 国 西北 干旱 地 区 甘肃 省 .宁夏 回族 自治 区 和 青海 省 的 精 
度 ; 以 中 国人 口 普查 数据 的 最 佳 可 用 单位 (乡镇 行政 区 划 ) 为 研究 单元 ,将 WorldPop 和 GPWv4 数据 
集 与 2020 年 第 七 次 人 口 普查 数据 进行 相关 性 分 析 , 计 算 统 计 误 差 和 相对 误差 的 空间 分 布 , 定 量 地 
评价 各 个 数据 集 的 精度 ;通过 目 视 估计 定性 地 分 析 数 据 集 的 映射 性 能 ,最 后 讨论 了 数据 集 的 误差 
来 源 。 统 计 误 差 结果 表明 :WorldPop 数据 集 的 精度 更 高 ,其 相关 系数 (7) 、 均 方 根 误 (RMSE)、 平 均 
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绝对 误差 (MAE) 和 和 平均 绝对 百分比 误差 (MAPE ) 分 别 达 到 0.76、23016、0.73 和 0.60, 而 GPWv4 数据 
集 的 上 述 统计 结果 分 别 为 0.70、22297、0.75 和 0.58。 同 时 ,由 相对 误差 的 空间 分 布 可 知 ,WorldPop 
数据 集 准确 估计 的 区 域 更 多 。 目 视 估计 结果 表明 :2 种 人 号 格 网 数据 集 的 映射 性 能 类 似 , 都 具有 东 


部 人 口 稠密 、 


部 人 口 稀 芍 的 特点 。 针 对 于 旱地 区 人 口 格 网 数据 集 精度 的 评价 研究 ,有 利于 分 析 


数据 集 的 误差 来 源 ,指导 数据 集 的 合理 使 用 。 在 未 来 研究 中 ,使 用 人 类 生活 的 辅助 数据 ,生成 干旱 
地 区 特有 的 人 口 分 布 模式 ,从 而 提高 西北 干旱 区 域 人 口 数据 集 的 精度 。 
关 键 词 : 人 口 格 网 数据 集 ; GPWv4 数 据 集 ; WorldPop 数 据 集 ; 精度 评价 ; 中 国 西北 干旱 地 区 
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人 口 数据 是 风险 评价 .灾害 应 急 .生态 环境 保 
护 、 区 域 发 展 与 规划 等 领域 的 重要 基础 数据 ,也 是 
人 口 空间 化 研究 的 主要 数据 源 ”。 传 统 上 人 口 数 
据 的 获取 通常 是 以 行政 区 为 基本 单元 收集 的 全 国 
人 口 普 查 数据 ,具有 空间 分 辩 率 低 , 时 间 分 辩 率 低 
的 特点 , 且 无 法 充分 揭示 行政 区 内 人 口 数据 的 空间 
异 质 性 ”。 同 时 ,以 行政 区 为 基本 单元 的 统计 人 口 
数据 无 法 与 以 格 网 等 基础 地 理 单元 数据 耦合 ,难以 
满足 空间 分 析 统计 的 需求 。 因 此 ,建立 能 反映 
真实 人 口 空间 分 布 的 人 口 格 网 数据 集 ,预测 人 口 数 
据 及 其 时 空 分 布 , 具 有 重要 的 理论 与 现实 意义 。 目 
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前 ,已 有 研究 者 建立 了 众多 的 人 口 格 网 数据 集 ,其 中 
仍 被 广泛 使 用 的 人 口 格 网 数据 集 包 含 LandScan!5 、 
中 国 1 km 网 格 人 口 (CnPop) "全 球 资源 信息 数据 
库 (UNEP/GRID) 全 球 城乡 测绘 项 目 (GRUMP)*、 
世界 第 四 版 网 格 化 人 口 数 据 集 (GPWv4) Open- 
PopGrid""’ ÆRA X JEE X (GHS) 和 世界 人 口 
(WorldPop) 数 据 集 " 等 ,这 些 数据 集 被 灵活 的 利用 
在 各 类 研究 中 。 当 前 仅 有 WordPop 和 GPWv4 数据 
集中 数据 更 新 到 2020 年 。 

人 群 空 间 分 布 的 复杂 性 以 及 生成 数据 集 的 模 
型 的 局 限 性 ,导致 了 人 口 格 网 数据 集 与 实际 人 口 必 
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然 存 在 误差 ,评估 现 有 人 口 格 网 数据 集 的 精度 ,不 
仅 有 利于 数据 生产 者 发 掘 数据 集 的 短 板 , 也 有 利于 
数据 使 用 者 了 解数 据 集 的 特性 ,针对 研究 需要 选择 
研究 数据 “5 。 评 价 人 口 格 网 数据 集 的 精度 仍然 是 
一 项 具有 挑战 性 的 工作 ,针对 解决 这 类 项 目 主流 有 
2 种 理论 :一 种 是 对 产生 数据 集 的 模型 和 数据 集 进 
行 精 度 评 估 '。 但 是 ,由 于 人 和 群 分 布 的 复杂 性 与 流 
动 性 ,无 法 准确 地 获得 格 网 单元 的 人 口 值 ,所 以 难 
度 较 大 ”。 另 外 一 种 方法 是 将 人 口 格 网 数据 统计 
到 行政 区 内 再 与 人 口 普 查 数据 进行 比较 “”。 目 
前 ,国内 外 研究 者 对 人 口 格 网 数据 集 的 精度 已 经 进 
行 了 一 些 研究 ,Tatem 等 ”通过 构建 恶性 症 原 虫 症 
疾 流 行 性 全 球 地 图 评价 了 GRUMP、LandScan UNEP 
和 GPWv3 数 据 集 的 准确 性 ,结果 显示 现 有 数据 集 的 
估计 和 人口 分 布 存 在 很 大 差异 。 王 雪 梅 等 以 中 
黑河 流域 为 研究 区 ,在 流域 尺度 上 把 CPWv3、 
UNEP ,LandScan 和 CnPop 数 据 集 的 人 口 估计 结果 与 
统计 数据 进行 比较 分 析 ,结果 表明 ,CnPop 数据 集 精 
度 最 高 。Bai 等 "使 用 中 国 2000 年 第 五 次 人 口 普查 
数据 评估 了 GPWv3 .CRUMP WorldPop 和 CnPop 数 
据 集 在 全 国 范围 的 精度 ,4 个 数据 集 在 中 国 西北 地 
区 精度 均 偏 低 。Xu 等 Y 评 估 了 2015 年 中国 西南 云 
南 省 .广西 壮族 自治 区 贵州 省 地 区 GPWv4, GHS, 
LandScan 和 WorldPop 数据 集 的 精度 ,同时 利用 谷歌 
地 球 高 分 辩 率 图 像 定 性 分 析 了 行政 区 内 人 口 分 布 。 
林丹 淳 等 以 2010 年 广东 省 为 例 对 代表 性 人 口 空 
间 分 布 数据 集 的 精度 做 出 了 评价 ,比较 WorldPop、 
GPWv4 数 据 集 和 2 种 中 国 公 里 网 格 人 口 分 布 数据 集 
空间 分 布 的 一 致 性 。 上 述 研究 验证 了 人 口 格 网 数 
据 集 在 人 口 密集 区 具有 良好 的 精度 ,但 在 中 国 西北 
干旱 地 区 精度 大 大 降低 ,人 研究 西北 干旱 地 区 的 人 口 
格 网 精度 以 及 精度 的 影响 因子 ,是 我 们 需要 考虑 的 
人 研究 方向 。 此 外 ,之 前 的 研究 大 多 数 是 基于 2000 年 
和 2010 年 的 人 口 数 据 人 研究 ,缺少 最 新 的 研究 成 果 。 
水 资源 等 环境 因素 对 人 群 空间 分 布 影 响 巨 大 ， 
而 中 国 西北 地 区 位 于 干旱 地 区 ,这 导致 了 西北 地 区 
人 和 群 聚集 模式 不 同 于 沿海 等 气候 适宜 地 区 ,在 以 往 
的 研究 中 干旱 地 区 人 口 格 网 数据 集 的 精度 都 属于 
未 被 准确 估计 区 域 " ,所 以 探究 此 类 地 区 误差 产生 
的 因素 与 数据 集 的 缺陷 ,有 利于 数据 开发 者 提高 数 
据 集 精度 。 因 此 ,本 文 利用 2020 年 第 七 次 人 口 普 查 
数据 为 人 口 真 值 ,对 2020 年 的 WorldPop 和 GPWv4 


数据 集 进行 精度 评价 ,分 析 人 口 格 网 数据 集 在 中 国 
西北 干旱 区 域 的 准确 性 和 特征 ,以 弥补 研究 空白 。 


1 研究 区 概况 


甘肃 省 .宁夏 回族 自治 区 和 青海 省 (简称 甘 宁 
青 ) 位 于 中 国 西北 干旱 地 区 ,北部 同 内 蒙古 自治 区 相 
接 , 西 北部 与 新 疆 维吾尔 自治 区 相 邻 ,西南 部 与 西藏 
自治 区 毗连 ,南部 和 东南 部 与 四 川 省 接壤 ,东部 与 陕 
西 省 相连 。 研 究 区 有 27 个 市 级 行政 区 ,包括 19 个 地 
级 市 和 8 个 民族 自治 州 ,共计 153 个 县 级 行政 区 ,总 
面积 约 1.21x105 kmx( 图 1)。 甘 宁 青 地 区 是 “丝绸 之 
路 ”经济 带 的 核心 地 区 ,是 衔接 中 国 、 中 亚 和 欧洲 大 
陆 的 重要 枢纽 。 该 地 区 自然 资源 丰富 ,是 中 国 “ 西 部 
大 开发 "战略 的 重点 地 区 ,是 “ 西 气 东 输 ”“ 北 煤 南 运 ” 
等 战略 的 能 源 生产 外 输 基 地 。 尽 管 甘 宁 青 地 区 拥 
有 广阔 的 地 域 与 丰富 的 资源 , 却 是 中 国人 口 分 布 极 
不 协调 的 地 区 之 一 。 根 据 2020 年 人 口 普查 数据 显 
示 , 该 地 区 总 人 口 约 3.81x10 ”人 ,平均 人 口 密度 约 为 
31.40 人 km”, 远 低 于 中 国平 均 人 口 密度 下 。 因 此 ， 
人 研究 甘 宁 青 地 区 人 口 格 网 数据 集 的 精度 ,可 以 为 该 
地 区 人 口 分 布 和 人口 空间 化 研究 提供 技术 支持 。 


图 例 
口 省 界 
海拔 /m 


7 6826 
559 


0 200km 


E 


注 : 该 图 基于 国家 测绘 地 理 信息 局 标准 地 图 服务 网 站 下 载 的 审 图 
号 为 GS(2019)1822 号 的 标准 地 图 制作 , 底 图 边界 无 修改 。 下 同 。 
图 1 人 研究 区 示意 图 
Fig. 1 Schematic diagram of the study area 


2 数据 与 方法 
2.1 人 口 普 查 数据 

行政 区 划 是 国家 为 方便 行政 管理 而 划分 等 级 
的 区 域 ,行政 区 划 又 称 行政 区 域 。 中 国 的 行政 区 划 
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分 为 省 .地 、 县 、 乡 4 级 行政 区 域 ”。 本 文 评 价 了 乡 
镇 尺度 人 口 数 据 集 的 精度 ,这 是 中 国人 口 普查 数据 
的 最 佳 可 用 单位 。 乡 级 行政 边界 数据 来 源 于 国家 
基础 地 理 信息 中 心 ,比例 为 1:100000。 由 于 行政 区 
划 的 调整 ,一 些 城镇 的 行政 边界 发 生 了 变化 。 通 过 
对 比 2020 年 的 行政 区 划 , ZE ArcGIS 软件 中 对 不 一 至 
的 行政 区 划 进 行 修改 ,最 终 得 到 2097 个 乡镇 行政 区 
划 。 乡 镇 人 口 普查 数据 来 源 于 各 区 、 县 2020 年 人 口 
普查 公报 ,可 以 在 行政 区 域 官方 网 站 找到 ,例如 青 
海 省 西宁 市 城中 区 各 个 街道 乡镇 人 口 普查 数据 ,可 
以 从 西宁 市 城中 区 人 民政 府 官网 处 查询 (http://www. 
xncz.gov.cn/info/2953/121813.htm) 。 2097 个 乡镇 行 
政 区 划 和 乡镇 级 别 的 人 口 普 查 数据 见 图 2。 
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图 2 乡镇 统计 人 口 数量 


Fig. 2 Number of statistical populations in townships 


2.2 人 口 格 网 数据 集 

本 文选 择 GPWv4 和 WorldPop 数据 集 来 评估 它 
们 在 估计 人 口 信息 方面 的 性 能 。 表 1 给 出 了 4 个 网 
格 人 口 分 布 数据 的 基本 特征 。 人 口 网 格 数据 集 和 
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a aaa 
影 作 为 地 理 参 考 。 

CpWv4 数 据 集 是 由 NASA 的 社会 经 济 数据 和 应 
用 中 心 SEDAC (Socioeconomic Data and Applications 
Center ) 发 布 的 全 球 人 口 格 网 数据 集 。GPWv4 数据 
集 在 30"( 赤 道上 约 1km) 网 格 单元 上 模拟 了 2000、 
2005 , 2010, 2015 年 和 2020 年 的 全 球 人 口 分 布 。 
GPWv4 数 据 集 的 2 个 基本 输入 数据 是 非 空间 人 口 数 
据 和 空间 范围 明确 的 行政 边界 数据 。 估 计 人 口 是 
通过 人 口 普查 和 行政 单位 的 面积 比例 分 配 到 网 格 
中 ,同时 利用 水 域 作为 掩 膜 ,以 防止 湖泊 、 河 流 和 冰 
雪 和 覆盖 地 区 干扰 实际 的 人 口 分 布 。 

经 联合 国 调整 后 的 CPWv4(A-CPWv4) 数 据 集 
是 由 联合 国 根据 联合 国人 口 机 构 提 供 的 人 口 数据 
对 原始 GPWv4 数 据 集 进行 调整 得 到 的 。 

WorldPop 数据 集 的 空间 分 辩 率 为 3"( 赤 道 约 为 
100 m) ,并 提供 2000 一 2020 年 的 年 度 人 口 数据 估 
计 。 它 使 用 例如 居住 区 夜间 卫星 网 像 .道路 、 植 
被 .地形 和 土地 使 用 等 空间 辅助 数据 集 进 行 建 模 ， 
以 纠正 住宅 和 建成 区 的 分 布 。 然 后 基于 随机 森林 
回归 树 生成 预测 加 权 图 层 , 将 官方 普查 数据 重新 分 
布 到 网 格 中 ,实现 人 口 空间 化 。 

经 联合 国 调整 后 的 WorldPop (A-WorldPop) 数 
据 集 是 由 联合 国 根据 联合 国人 口 机 构 提 供 的 人 口 
数据 对 原始 WorldPop 数据 集 进行 调整 得 到 的 。 

2.3 精度 评价 方法 

根据 2097 个 乡镇 的 行政 区 划 , 利 用 ArcGIS 软件 
的 分 区 统计 功能 ,统计 了 4 个 人 口 格 网 数据 集 的 估 
计 人 口 密 度 。 然 后 利用 估计 数据 和 统计 数据 计算 
数据 集 的 相对 误差 (RE ) ,并 评价 各 个 人 口 格 网 数据 
集 的 准确 性 ,RE 计算 公式 如 下 : 

=P, 


peA (1) 
P, 


#1 人 口 格 网 数据 集 的 基本 信息 


Tab.1 Basic information of the population grid data sets 


数据 集 统计 指标 时 间 分 辩 率 辅助 数据 空间 分 辨 率 /m ”空间 化 方法 
WorldPop ”人 口 密度 2000.2005.2010.2015 、 土 地 使 用 .居住 区 ,夜间 卫星 图 像 .道路 、 100 随机 森林 模型 
2020 年 制备 .地 形 
A-WorldPop 联合 国 调整 后 的 人 口 密度 ”2000、2005 .2010 .2015、 土 地 使 用 、 居 住 区 ,夜间 卫星 图 像 . 道 路 、 100 随机 森林 模型 
2020 年 制备 .地 形 、 联 合 国 历史 人 口 估计 数 
GPWv4 人 口 密度 2000 一 2020 年 IKER 行政 区 划 1000 面积 权重 法 
A-GPWv4 ”联合 国 调整 后 的 人 口 密度 ”2000 一 2020 年 水 域 行政 区 划 、 联 合 国 历史 人 口 估计 数 1000 面积 权重 法 
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为 了 评估 人 口 网 格 数据 集 的 准确 性 ,计算 估计 
值 和 统计 值 的 相关 系数 (7) IIAIR RMSE) .平均 
绝对 误差 (MAE) 和 平均 绝对 百分比 误差 (MAPE)",， 
计算 公式 如 下 : 
Dp.- PAP- P) 
r= a (2) 


Dende, = 


py 
RMSE = (3) 


Slp, -PP 
E = i=1 
n 


MA (4) 


Vp, -pp, 
MAPE = = (5) 
AP: p, 为 每 个 格 网 数据 集 乡镇 行政 区 域内 的 估计 
AG; p, 为 对 应 乡镇 的 普查 人 口 数据 ;n 为 行政 区 划 
的 数量 。 
3 结果 与 分 析 


3.1 目 视 估计 
图 3 分 别 展示 了 研究 区 内 GPWv4、WorldPop 、A- 


(a) GPWv4 


(c) WorldPop 


0 


ESI 


图 例 eA C Seon 
密度 /人 :km? mm 0.0~5.0 


mm 5.1~10.0 


150 km 


mm 10.1~100.0 


GPWv4 和 A-WorldPop 4 种 人 口 格 网 数据 集 的 人 口 
分 布 情况 。 为 了 在 同一 分 辨 率 下 对 比分 析 4 种 数据 
集 , 在 ArcGIS 中 预 处 理 WorldPop 数据 集 ,使 其 分 辩 
率 为 1 km。 与 统计 人 口 数 据 相 比 , 图 3 中 的 人 口 网 
格 密度 数据 也 呈现 出 类 似 的 趋势 :东部 人 口 分 布 较 
为 密集 ,而 西部 人 口 分 布 较为 稀疏 。 受 气候 和 地 理 
环境 的 影响 ,西北 地 区 人 口 分 布 呈现 出 以 大 城市 为 
中 心 的 放射 性 分 布 特征 ,例如 宁夏 回族 自治 区 的 银 
川 市 .吴忠 市 和 中 卫 市 ,甘肃 省 的 兰州 市 、 天 水 市 、 
武威 市 .张掖 市 . 酒 果 市 ,青海 省 的 西宁 市 和 格尔木 
市 是 主要 的 人 口 聚集 地 。 而 与 东部 人 口 高 度 集中 
分 布 相 比 ,西部 地 区 面积 大 ,人 口 稀疏 ,人 口 分 布 相 
对 分 散 , 大 多 数 地 区 人 口 密度 低 于 5 A kin. 

在 映射 性 能 的 比较 中 ,更 改 分 辨 率 后 的 WorldPop 
和 GPWv4 数 据 集 的 映射 视觉 效果 与 普查 人 口 数 据 
映射 视觉 效果 类 似 ,说明 预 测 人 口 格 网 数据 集 大 体 
上 反映 了 实际 人 口 分 布 ,具有 良好 的 精确 度 。 而 
GPWv4 和 WorldPop 数据 集 的 视觉 效果 进行 比较 时 
也 有 显著 差异 。GPWv4 数据 集 是 根据 现 有 的 人 口 
普查 数据 和 每 个 行政 单位 的 人 口 增长 率 计 算出 的 
一 个 行政 单位 的 人 口 估计 ,利用 面积 权重 法 去 估计 
格 网 人 口 。 这 种 简单 的 人 口 数 据 区 域 加 权 分 配 和 较 
低 的 分 辩 率 导致 了 GPWv4 数 据 集 有 较 明 显 的 拼接 


(b) A-GPWv4 


(d) A-WorldPop 


0 150 km 


= 


mm 100.1~200.0 == 200.1~400.0 = 400.1~800.0 


(-4800.1~1600.0 m= 1600.1~3200.0 mm 3200.1~6400.0 mm 6400.1~12800.0 mm12800.1~25600.0 mm25600.1~51200.0 


图 3 目 视 佑 计 人 口 格 网 数据 集 的 人 口 分 布 


Fig. 3 Visually estimated population distributions of population grid data sets 
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感 ,WorldPop 数 据 集 的 空间 连续 性 更 好 。 与 GCPWv4 
数据 集 相 比 ,WorldPop 数据 集 提供 了 更 详细 的 空间 
异 质 性 。 将 广泛 可 用 的 遥感 和 地 理 空间 数据 集 ( 如 
居民 点 位 置 EA m .建筑 地 图 植被) 结合 起 来 ， 
形成 模型 的 对 称 权重 ,然后 使 用 随机 和 森林 模型 生成 
大 约 100m 空 间 分 辨 率 的 人 口 密度 网 格 ,这 也 导致 
了 WorldPop 数据 集 的 中 心 集 聚 形态 更 加 明显 。 同 
时 ,由 于 辅助 数据 集 的 粗 分 类 作用 ,人 口 密度 在 
WorldPop 数据 集 上 的 变化 并 不 平稳 。 总 而 言 之 ,无 
论 是 人 口 稠密 的 东部 地 区 还 是 人 口 稀 玻 的 西部 地 
区 ,WorldPop 数据 集 对 人 口 分 布 差异 的 描述 总 是 优 
于 CPWv4 数 据 集 。 
3.2 统计 分 析 

R 2 GL AN T GPWv4, WorldPop, A-GPWv4 fil A- 
WorldPop 数据 集 的 乡镇 人 口 密度 误差 统计 结果 。A- 
WorldPop 数据 集 的 > 最 高 (0.75) ,其 次 是 WorldPop、 
A-GPWv4 和 GPWv4 数 据 集 ,对 应 r 分 别 为 0.74、0.69 
和 0.64。A-WorldPop 数 据 集 的 RMSE 最 小 (16164)， 
A-GPWv4 , WorldPop 和 GPWv4 数 据 集 分 别 为 22506、 
23654 和 26598。WorldPop 数据 集 的 MAE 和 MAPE 
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2 4 种 人 口 格 网 数据 集 的 误差 统计 


Tab.2 Error statistics of the four population grid data sets 


数据 集 r RMSE MAE MAPE 
GPWv4 0.64 26598 1.41 1.26 
A-GPWv4 0.69 22506 0.81 0.64 
WorldPop 0.74 23654 0.81 0.69 
A-WorldPop 0.75 16164 0.45 0.16 


注 :r 为 相关 系数 ;RMSE 为 方 根 误差 ;MAE 为 平均 绝对 误差 ;MAPE 
为 平均 绝对 百分比 误差 。 下 同 。 


(0.81 和 0.69) 远 低 于 GPWv4 数 据 集 (1.41 和 1.26 ) , 
而 A-WorldPop 数据 集 (0.45 和 0.16) 和 A-GPWv4 数 
据 集 (0.81 和 0.64) 经 联合 国 调整 后 均 有 所 改善 。 总 
体 而 言 ,WorldPop 数据 集 在 人 口 网 格 数据 方面 优 于 
GPWv4 数 据 集 , 而 联合 国 调整 后 WordPop 和 GPWv4 
数据 集 的 精度 有 所 提高 。 值 得 注意 的 是 ,这 4 种 数 
据 集 的 RMSE 值 都 较 大 ,表明 人 口 密度 估计 误差 高 
度 离 散 ; 而 4 种 数据 集 的 MAE 值 都 很 小 ,表明 数据 
集 的 总 体 精 度 高 。 

图 4 显示 了 4 种 人 口 网 格 数据 集 和 2020 年 人 口 
普查 数据 的 人 口 密度 散 点 图 ,从 4 个 散 点 图 来 看 ,总 
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图 4 乡镇 级 别 的 统计 人 口 与 格 网 数据 集 的 预测 人 口 的 相关 性 分 析 


Fig.4 Correlation analysis between statistical population at township level and predicted population in grid datasets 
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As AAG ee 1:1, WHA H R RGE R A H 
查 数据 具有 良好 的 一 致 性 。 其 中 ,A-WorldPop 数据 
集 统 计 样 本 更 接近 1:1, 其 > 也 是 最 大 的 (0.75) , 而 
GPWv4 数据 集 样本 离散 性 最 强 , 而 r 也 是 最 小 的 
(0.64)。 

4 种 数据 集中 有 一 些 样本 误差 较 大 的 异常 值 ， 
这 可 能 是 由 于 非 自 然 因素 导致 的 人 口 迁 移 造 成 的 ， 
例如 泥石流 等 自然 灾害 或 居民 点 拆迁 。 同 时 ,乡镇 
的 人 口 增 长 率 与 网 格 数据 的 人 口 增 长 率 之 间 的 差 
异 也 会 导致 预测 人 口 数据 的 偏差 。 研 究 发 现 每 个 
网 格 数据 集中 有 异常 值 的 区 域 虽 然 不 同 , 但 它们 具 
有 一 系列 相似 的 特征 ,这 可 能 是 由 于 数据 集 的 生成 
方式 不 同 以 及 输入 变量 的 差异 所 致 。 为 了 保证 实 
验 的 准确 性 ,将 每 个 数据 集中 误差 最 大 的 1% 的 数 
据 ( 每 个 数据 集中 21 个 样本 ) 去 除 ,并 重新 计算 4 种 
数据 集 的 误差 统计 量 。 

如 表 3 所 示 , 在 去 除 异 常 值 后 ,4 种 网 格 数 据 集 


(a) GPWv4 


图 例 eR 乡镇 边界 
相对 误差 
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RI 4 个 人 口 格 网 数据 集 去 除 1% 的 异常 值 后 
的 误差 统计 
Tab. 3 Error statistics of four population grid data 


sets after removing 1% outliers 


数据 集 r RMSE MAE MAPE 
GPWv4 0.70 22297 0.75 0.58 
A-GPWv4 0.75 15798 0.40 0.10 
WorldPop 0.76 23016 0.73 0.60 
A-WorldPop 0.76 15798 0.40 0.10 


的 精度 都 有 所 提高 ,尤其 是 GCPWv4 数据 集 有 了 较 
大 的 提高 ,而 WorldPop 数据 集 的 + 变化 不 大 。 与 此 
同时 ,网 格 数据 集 的 RMSE 有 所 提高 ,MAE 和 
MAPE 变化 明显 。 总 体 表现 最 好 的 是 A-WorldPop 
和 A-GPWv4 数据 集 , 其 次 是 WorldPop 和 GPWv4 数 
据 集 。 

如 图 5 所 示 ,4 种 数据 集 的 相对 误差 空间 分 布 呈 
现 出 相似 的 趋势 :严重 高 估 区 域 在 西部 占 主 导 地 


(b) A-GPWv4 
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图 5 4 个 数据 集 相 对 误差 的 空间 分 布 


Fig. 5 Spatial distributions of relative errors of the four data sets 
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位 ,而 东部 分 布 相对 均衡 。 相 对 误差 在 -25~25 之 间 
被 认为 是 准确 估计 ;相对 误差 在 -50~-25 之 间 及 在 
25~50 之 间 分 别 被 认为 是 低估 及 高 估 ; 相 对 误差 
在 -100~-50 和 50~100 之 间 分 别 被 认为 是 严重 低估 
和 严重 高 估 。 从 图 5a 可 以 看 出 ,GPWv4 数 据 集 中 严 
重 高 估 区 域 明显 多 于 其 他 数据 集 。 特 别 是 西部 和 
北部 面积 较 大 的 乡镇 行政 单位 大 多 属于 严重 高 估 
区 域 ,而 很 少 有 区 域 被 低估 。 高 佑 区 域 主要 分 布 在 
丘陵 .戈壁 和 高 原 地 区 ,而 准确 估计 则 集中 在 平原 
等 城市 密集 地 区 。 这 表明 在 平原 区 域 GPWv4 数 据 
集 采 用 的 面积 加 权 法 具有 较 好 的 精度 。 图 $b 和 图 
5c 分 别 为 A-GPWv4 和 WorldPop 数据 集 的 相对 误差 
分 布 。 可 以 看 出 ,2 组 数据 集 的 整体 性 能 相似 ,高 佑 
区 域 分 布 大 致 相同 ,但 WorldPop 数据 集 的 准确 估计 
区 域 要 大 于 A-GPWv4 数 据 集 。 从 图 5d 可 以 看 出 ， 
准确 估计 面积 成 为 主体 ,高 估 面 积 大 大 减少 ,但 低 
估 面 积 增加 。 横 向 比较 GPWv4 和 WorldPop 数据 集 
的 结果 表明 ,联合 国 调整 后 的 网 格 数据 集 表 现 较 
好 ,对 乡镇 级 别 行政 单元 的 高 佑 减少 。 特 别 是 对 于 
WorldPop 数据 集 来 说 ,经 调整 后 的 数据 集 准确 佑 计 
区 域 占 主导 地 位 。 纵 向 比较 CPWv4 和 WorldPop 数 
JER ,发 现 WorldPop 数据 集 总 体 精 度 较 高 ,特别 是 
A-WorldPop 数据 集中 精确 估计 区 域 的 比例 远 高 于 
高 估 区 域 和 低估 区 域 。 

为 了 更 直观 地 显示 数据 集 的 误差 分 布 ,绘制 了 
4 种 数据 集 的 泰勒 图 ,并且 统计 了 每 个 数据 集 的 误 
差分 布 区 间 。 如 图 6 所 示 ,A-WordPop 数据 集 精 度 


标准 化 标准 差 


0.02 0.04 0.06 0.08 
标准 化 标准 差 
@ GPWv4 @ A-GPWv4 @ WorldPop @ A-WorldPop 
6 4 个 数据 集 的 误差 Taylor 图 
Fig.6 Error Taylor diagram of the four data sets 
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远 超 其 余 3 个 数据 集 。 图 7 展示 了 4 种 数据 集 相 对 
误差 分 布 情况 ,可 以 清晰 的 看 出 ,A-WorldPop 数据 
集 准确 估计 区 域 在 4 个 数据 集中 占 比 最 大 ,同时 A- 
WorldPop 数据 集 总 体 被 低估 ,而 GCPWv4、A-GPWv4 
和 WorldPop 数据 集 总 体 被 高 估 。A-WorldPop 数据 
集 在 准确 估计 、 低 估 和 严重 低估 区 域 占 比 都 大 于 其 
他 3 个 数据 集 ,而 在 高 佑 区 域 与 其 他 3 个 数据 集 也 将 
近 持 平 。 总 体 而 言 ,GPWv4、A-GPWv4 和 WorldPop 
数据 集 高 估 了 中 国 乡镇 的 总 人 口 ,而 A-WorldPop 数 
据 集 更 准确 。 


E GPWv4 MM A-GPWv4 BM WorldPop MM A-WorldPop 


严重 低估 


相对 误差 等 级 


0 20 40 60 80 100 
相对 误差 占 比 /% 


图 7 4 个 数据 集 相 对 误差 占 比 堆积 柱状 图 


Fig.7 Stacked histogram of relative error percentage 


of the four data sets 


4 讨论 


本 人 研究 基于 人 口 普查 数据 研究 了 中 国 西北 地 
区 甘肃 省 .宁夏 回族 自治 区 和 青海 省 的 WorldPop 和 
GPWv4 数 据 集 的 精度 差异 。2 种 人 口 格 网 数据 集 在 
西北 部 高 佑 和 东部 存在 低估 的 现象 。 在 乡镇 尺度 
上 ,WorldPop 数据 集 在 东部 人 口 密集 区 域 表 现 良 
好 。WorldPop 数 据 集 的 空间 分 辩 率 有 100 m 与 1 km 
2 种 , 相 比 于 GPWv4 数据 集 仅 有 1 km 的 空间 分 辩 
率 ,提供 了 更 多 的 选择 ,同时 也 提高 了 精度 ,能 够 更 
为 准确 地 描述 人 口 空间 分 布 且 反 映 出 更 多 细节 信 
息 ,在 高 人 口 密度 地 区 有 良好 的 表现 。 而 GPWv4 数 
据 集 在 西北 部 人 口 稀 玖 区 域 和 中 等 人 口 密度 区 域 
未 能 表现 出 较 好 的 精度 ,存在 严重 高 佑 现象。 由 于 
其 低空 间 分 状 率 和 面积 权重 法 的 限制 ,GPWv4 数 据 
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集 无 法 反映 行政 区 内 人 和 群 的 真实 分 布 情况 ,但 是 其 
特殊 的 数据 生产 方式 ,使 其 具备 了 行政 区 内 人 口 总 


成 的 。 我 们 推测 有 3 个 主要 原因 影响 人 口 分 布 的 准 
确 性 。 第 一 是 西北 地 区 农田 和 小 面积 农村 错落 分 


数 更 为 精确 的 特点 ,在 低 人 口 密度 地 区 和 最 小 研究 
单元 大 于 行政 区 的 研究 中 有 良好 表现 。 数 据 源 和 
生产 方式 是 导致 这 2 种 数据 集 在 该 区 域 人 口 分 布 格 
局 出 现 差异 的 主要 原因 。 

(1) 生产 方法 

WorldPop 数据 集 使 用 对 数 转 换 的 人 口 密度 和 
消除 零 计数 单位 有 助 于 随机 森林 算法 在 数据 中 找 
到 良好 的 分 割 ,同时 使 人 口 密度 在 大 多 数 情况 下 分 
布 更 加 均匀 。 但 是 这 样 产生 的 一 个 没有 和 零 单元 格 
的 dasymetric 密度 加 权 层 会 导致 低 人 口 密度 区 域 被 
高 佑 ,高 人 口 密度 区 域 被 低估 。 而 CPWv4 数 据 集 使 
用 人 简单 面积 加 权 法 分 配 乡镇 行政 区 内 的 人 口 , 即 假 
设 各 行政 单元 人 口 均匀 分 布 ,其 精度 依赖 于 输入 数 
据 的 精细 2 。GPWv4 数 据 集 适合 用 于 长 时 序 .最 小 
研究 单元 大 于 街 镇 的 研究 ,在 沿海 地 区 等 人 口 分 布 
较 均 匀 的 城镇 具有 和 较 高 的 精度 。 

(2) 数据 源 

对 数据 集 精度 影响 的 另 一 重要 因素 是 其 使 用 
的 数据 源 。 其 中 ,主要 输入 数据 是 基于 人 口 普查 的 
人 口 数据 ,并 且 经 过 联合 国 适 当 的 调整 以 符合 目标 
年 份 的 全 球 总 人 口 佑 计数。 但 由 于 自然 和 社会 经 
济 条 件 的 空间 差异 ,人 研究 区 城镇 单位 的 人 口 增长 率 
与 全 国平 均 水 平 存 在 差异 ,人 研究 区 城镇 单位 的 实际 
调整 比例 也 不 同 于 全 国平 均 水 平 。 因 此 ,全 国 调整 
会 导致 估计 人 口 与 城镇 统计 人 口 之 间 的 差异 。 此 
外 ,中 国 近期 频繁 进行 行政 区 划 调 整 ,这 可 能 导致 
人 口 格 网 数据 集 与 镇 级 统计 人 口 数据 之 间 存 在 额 
外 的 差异 。 同 时 辅助 数据 的 输入 也 会 影响 数据 集 
的 精度 。 此 外 ,WorldPop 数据 集 使 用 居住 区 夜间 
卫星 图 像 .道路 .植被 地形 和 土地 使 用 等 空间 辅助 
数据 集 进行 建 模 ,以 纠正 住宅 和 建成 区 的 分 布 , 同 
时 加 入 的 夜间 灯光 数据 也 能 使 人 口 格 网 数据 集 精 
度 提高 ;GPWv4 数据 集 的 2 个 基本 输入 数据 仅 有 非 
空间 人 口 数据 和 空间 范围 明确 的 行政 边界 数据 。 

需要 注意 的 是 ,中 国 西 北 的 地 理 环境 导致 了 西 
北 地 区 人 口 分 布 呈现 “大 聚集 .小 群居 "的 格局 ,并 
且 人 口 分 布 与 经 济 文化 .历史 基础 水 资源 等 生活 
资源 分 布 有 着 密切 的 联系 。 从 根本 上 来 说 ,准确 
性 评估 的 估计 误差 是 由 中 国人 口 分 布 的 复杂 性 造 


布 ,无 法 从 土地 利用 数据 中 提取 到 有 用 信息 确定 人 
口 分 布 ? ;第 二 是 西北 地 区 生态 环境 脆弱 ,对 人 类 
活动 反应 敏感 ,因此 人 口 流动 性 强 ” ;第 三 是 行政 
区 划 内 的 人 口 被 假设 为 一 个 固定 值 ,无 法 反映 真实 
人 口 分 布 的 空间 异 质 性 ”。 若 要 提高 西北 地 区 人 
口 格 网 数据 集 的 精度 ,这 需要 引入 地 理 环境 、 人 口 
聚集 模式 等 影响 人 类 生活 的 辅助 数据 改进 数据 集 。 


5 结论 

本 文 比 较 了 GPWv4 和 WorldPop 2 种 人 口 格 网 
数据 集 在 人 口 分 布 呈现 “大 聚集 .小 群居 ”特殊 格局 
的 中 国 西北 干旱 地 区 人 口 空 间 化 的 精确 度 。 主 要 
结论 如 下 : 

(1) 基于 GPWv4 和 WorldPop 2 种 人 口 格 网 数 
据 集 与 普查 人 口 数据 ,对 比 了 两 者 在 研究 区 的 映射 
性 能 ,2 种 数据 集 与 人 口 普查 数据 视觉 效果 类 似 ,都 
具有 东部 人 口 稠密 西部 人 口 稀 玻 的 特点 。 

(2) 通过 对 GPWv4 和 WordPop 2 种 数据 集 定 
性 与 定量 的 分 析 , 发 现在 中 国 西北 地 区 WorldPop 数 
据 集 整 体 表 现 更 好 ,分 类 特征 明显 易 区 分 ,具有 和 良 
好 的 空间 连续 性 ,能 够 反映 出 高 精度 的 人 口 真实 空 
间 分 布 。 

(3) 人 口 格 网 数据 集 的 精度 主要 受 数 据 源 与 模 
型 影响 。WorldPop 数据 集 采 用 的 随机 森林 回归 模 
型 ,通过 产生 一 个 没有 零 单 元 格 的 dasymetric 密度 
加 权 层 来 估计 和 人口 ,回归 模型 产生 的 平均 数 估计 值 
会 导致 高 密度 区 域 被 低估 ,而 低 密度 区 域 被 高 估 。 
GPWv4 数据 集 使 用 的 面积 权重 法 假设 各 行政 单元 
人 口 均匀 分 布 ,其 精度 依赖 于 输入 数据 的 精细 。 

(4) WorldPop 数据 集 更 适用 于 人 口 密度 中 等 和 
高 人 口 密度 区 域 的 精细 化 研究 , 且 能 刻画 出 行政 区 
内 部 的 人 口 异 质 性 ;CPWv4 数 据 集 适用 于 最 小 研究 
单元 大 于 乡镇 行政 区 划 的 研究 。 

(5) 在 中 国 西北 干旱 地 区 ,人 口 分 布 与 水 资源 
等 生活 资源 分 布 有 着 密切 的 联系 ,基于 水 资源 分 布 

言 息 ` 地 理 环 境 ` 人 口 聚 集 模式 等 影响 人 类 生活 的 
辅助 数据 生成 干旱 地 区 特有 的 人 口 分 布 模式 以 提 
高 西北 干旱 区 域 人 口 分 布 精度 是 未 来 研究 的 方向 。 
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Accuracy of “representative population grid dataset” in arid areas: 
A case of Gansu-Ningxia-Qinghai region 


XIAO Dongsheng”， WANG Ning'’, LIU Zhicheng'* 


(1. School of Civil Engineering and Surveying, Southwest Petroleum University, Chengdu 610500, Sichuan, China; 2. Disaster 


Prevention and Emergency Response Research Center of Southwest Petroleum University, Chengdu 610500, Sichuan, China) 


Abstract: High-accuracy population grid datasets are of great value in the fields of risk assessment, disaster 
emergency response, ecological environment protection, and regional development. The characteristics and advan- 
tages of the datasets vary because of the different input data accuracy and model selection. Therefore, it is of 
great significance to evaluate the accuracy of datasets and analyze the applicable conditions of datasets. To this 
end, this study evaluated the accuracy of the WorldPop and GPWv4 datasets in the arid areas of the Gansu Prov- 
ince, Ningxia Hui Autonomous Region, and the Qinghai Province of northwest China. The accuracy of each datas- 
et was quantitatively evaluated by calculating the spatial distribution of statistical and relative errors. Taking the 
best available unit of census data of China (township administrative division) as the research unit, the correlation 
analysis was conducted between the WorldPop and GPWV4 datasets and the seventh census data in 2020. The spa- 
tial distribution of statistical and relative errors is obtained through correlation analysis to quantitatively evaluate 
the accuracy of each dataset. Furthermore, the mapping performance of the dataset was qualitatively analyzed by 
visual estimation. Finally, the error sources of the dataset are discussed. The statistical error results show that 
WorldPop has higher accuracy than GPWvV4. The correlation coefficient (r), root mean square error, average abso- 
lute error, and average absolute percentage error of WorldPop are 0.76, 23016, 0.73, and 0.60, respectively, while 
those of GPWv4 are 0.70, 22297, 0.75, and 0.58, respectively. Concurrently, according to the spatial distribution 
of the relative error, WorldPop accurately estimates the population of more areas. The visual estimation results 
show that the mapping performance of the two population grid datasets is similar, with the characteristics of a 
dense and sparse population in the east and west of the study area, respectively. This study on the accuracy of pop- 
ulation grid datasets in arid areas is conducive to analyzing the error sources of datasets and guiding the rational 
use of datasets. In future research, it would be a beneficial direction to use the auxiliary data of human life to gen- 
erate a unique population distribution pattern in an arid area to improve the accuracy of population datasets in the 
northwest arid area of China. 

Key words: population grid dataset; GPWv4 data set; WorldPop data set; accuracy evaluation; arid area in 
northwest China 


